文章荐读 | 融合“科学-技术”知识关联的高颠覆性专利预测方法
文 章 荐 读
融合“科学-技术”知识关联的高颠覆性专利预测方法
梁镇涛1,2, 毛进1,2, 李纲1,2
1.武汉大学信息资源研究中心,武汉 430072
2.武汉大学信息管理学院,武汉 430072
摘要
颠覆性技术的识别与预测研究在服务国家重大科技战略发展需求、保障国家科技产业安全等方面具有重要意义。本文将专利家族视为技术单元,从对技术知识空间的改变视角定义高颠覆性专利,基于世界专利统计数据库(Worldwide Patent Statistical Database,PATSTAT)和微软学术论文(Microsoft Academic Graph,MAG)数据库,对专利的颠覆性、技术特征及“科学-技术”知识关联特征进行测度分析,并在此基础上提出了融合“科学-技术”知识关联的高颠覆性专利预测方法。本文将高颠覆性专利预测问题转化为监督式二分类任务,给定专利在其公开当年的“科学-技术”知识关联和其他技术特征,以其5年后的颠覆性指标值高低作为预测目标,训练机器学习模型。研究结果表明,①高颠覆性专利具有前置知识少且非主流、技术团队实力强、商业价值被低估、长期影响力大的特点;②专利的“科学-技术”知识关联属性是对其颠覆性进行预测的重要特征;③LightGBM(light gradient boosting machine)模型在综合性能与训练效率上取得了最佳表现,在半导体器件与电数字数据处理领域的实证结果验证了模型的有效性。但颠覆性技术的预测仍是一个困难的任务,后续研究可尝试从专利语义特征与结合多源数据等角度进一步提升性能表现。
关键词
颠覆性技术; 预测研究; 科技关联; 专利分析; 机器学习
引用格式:
梁镇涛, 毛进, 李纲. 融合“科学-技术”知识关联的高颠覆性专利预测方法[J]. 情报学报, 2023, 42(6): 649-662.
👈长按识别文章二维码查看全文
0
引言
创新是引领发展的第一动力,纵观人类历史上出现过的数次工业革命,均依赖于科技创新所带来的生产力解放与发展。区别于延续现有技术发展方向不断完善的渐进式创新,通过更换技术轨道实现性能突破的颠覆性技术创新(如蒸汽机、电动机、电子计算机等)是生产力发展的关键推力。及时识别新技术发展轨道并参与其中的国家往往能够在世界经济格局中占据优势地位,甚至实现“弯道超车”。党的十九大报告中明确提出,要“加快建设创新型国家”,突出“关键共性技术、前沿引领技术、现代工程技术、颠覆性技术创新”。因此,开展颠覆性技术的识别与预测研究在服务国家重大科技战略发展需求、保障国家科技产业安全等方面具有重要意义。
颠覆性技术(disruptive technology)概念由Bower和Christensen于1995年首次提出[1],其认为颠覆性技术首先以“低端技术”的形式出现,在市场主流需求的满足上无法与在位技术竞争,因此,其往往被决策者忽视甚至有意识地否决。然而,颠覆性技术通过在非主流市场需求上开辟新赛道,满足新兴市场需求以获得生存空间,在巩固新技术轨道优势的基础上逐步提升在主流需求上的性能。当主流市场需求出现性能过剩,更多消费者提出非主流的需求时,颠覆性技术就有可能对在位技术进行颠覆和替代。以硬盘技术为例,5.5英寸硬盘产品因容量大、单位价格低而在20世纪80年代的主流消费市场中占据统治地位。当时,处于原型阶段的3.5英寸硬盘由于无法在容量与价格两个主流需求上取得更优表现而遭到在位企业的否决,其开辟的新赛道——便携性,也并未受到重视。在此后数年,3.5英寸硬盘的容量稳步提高,随着便携式个人电脑的迅速发展,便携性逐渐成为消费者所重视的需求,仍在传统技术轨道上发力的企业就因此失去了日益壮大的新兴市场。
当前,相关研究主要围绕颠覆性技术的概念界定[2-3]、主题演化[4-5]、特征测度与识别[6-10]等方面展开。在Bower和Christensen最初的消费市场“低端颠覆”概念[1]的基础上,有学者根据颠覆性技术在市场、技术等维度上的表现对其概念进行丰富和拓展[2],为后续研究奠定了理论基础。通过对已知的颠覆性技术领域(如增材制造、基因编辑)进行探索性分析,颠覆性技术的演化特点与一般特征也得以挖掘[4-5],服务于颠覆性技术识别方法体系的构建。在此基础上,相关研究尝试开展颠覆性技术的识别工作,通过调研专家意见[11-13]、构建技术路线图[14-15]、测度可计算的技术特征[7-10]等方法,捕捉潜在颠覆性技术的信号,在特定技术领域识别潜在的颠覆性技术方向。现有研究已取得相当的理论和实践成果,但仍存在一定局限性。首先,当前颠覆性技术识别研究所采用的方法仍以定性为主,专利计量、数据挖掘等定量方法逐渐受到重视,但尚未形成系统性方法体系[9-10]。其次,相关研究主要在已有数据中回溯性地识别已表现出颠覆状态的技术[9-15],在时效性上存在不足,亟须颠覆性技术的预测研究。最后,科学知识作为技术创新的重要来源,科学和技术之间的知识关联在颠覆性技术的识别中尚未得到充分研究[16]。
在实践中,专利通常作为技术的具体表示单元用于颠覆性技术的识别,而专利间的引用关系反映了技术知识的流动,其共同构成了技术知识空间。其中,专利的后向引用(backward citation)代表其前置技术知识,而前向引用(forward citation)则表示其后续的技术发展轨道[4]。一项技术专利出现后,会对其所处的技术知识空间产生不同程度的影响,从技术知识空间的视角,本文定义高颠覆性专利为在每个时期对其前置技术知识产生最大程度颠覆的专利。其中,高颠覆性专利对已有技术的颠覆或替代程度可以通过后续技术发展相对于其前置知识的偏离(departure)来反映[8]。高颠覆性专利出现后,前置知识在其后续技术轨道上的地位被削弱甚至替代;相反地,颠覆性较低的专利出现后,技术仍沿着前置知识所定义的轨道发展,前置专利仍发挥着重要作用。
当前,科学研究已成为技术创新重要的基础与动力,识别与理解科学与技术间的关联对推动科技创新具有重要意义,但“科学-技术”知识关联与技术颠覆性之间的关系仍有待探索。针对相关研究存在的不足,本文主要探索以下两个研究问题:
(1)相较于一般专利,高颠覆性专利是否具有不同的技术特征和“科学-技术”知识关联特征?
(2)如何对高颠覆性专利进行预测?专利的“科学-技术”知识关联特征是否在预测任务中发挥有效作用?
为此,本文基于专利与论文数据,定量测度专利的颠覆性及其技术特征、“科学-技术”知识关联特征。本文将专利家族作为基本分析单元,构建专利网络,并计算Funk等[8]提出的颠覆性指数(disruption index,DI),颠覆性指数处于同年前10%的专利家族被视为具有高颠覆性,其余被定义为一般的专利家族。在此基础上,本文分析了高颠覆性专利与一般专利在知识来源、技术团队、商业价值、后续影响等方面的差异,提出融合“科学-技术”知识关联的高颠覆性专利预测方法,将其转化为能够使用机器学习模型建模预测的任务,并根据专利的多维即时特征预测其在未来的颠覆性。为证实方法的有效性,本文采用来自欧洲专利局发布的世界专利统计数据库(Worldwide Patent Statistical Database,PATSTAT)和微软学术论文(Microsoft Academic Graph,MAG)数据库的大规模数据进行实证分析,从准确率、召回率、主题内容等角度对预测效果进行验证。研究结果表明,本文提出的方法能够对专利的颠覆性进行有效预测。
1
理论背景与相关研究
1.1 颠覆性技术的概念
尽管众多企业和政府部门都强调对颠覆性技术的监控和发展,但颠覆性技术的概念并非在初始阶段就得到了明确界定,而是在理论和实践中经过了长时间的拓展和完善。
颠覆性技术最初的概念被置于企业和消费市场的语境下。20世纪90年代,Bower和Christensen首次提出了颠覆性技术的概念[1],通过颠覆性技术和持续性技术(sustaining technology)在消费市场上表现的不同特点,对颠覆性技术的内涵进行阐述。不同于持续性技术致力于提升在已经被消费者重视的属性上的性能,颠覆性技术关注在尚未引起消费者重视的“非主流”属性上的表现。Bower和Christensen认为,尽管颠覆性技术早期在主流属性上无法与在位的持续性技术竞争,但其在“非主流”属性上的优势会随着新兴市场的壮大而增强,最终颠覆和取代仅在主流属性上性能过剩的在位技术[1]。这种“自下而上”地通过低端市场和新兴市场完成颠覆的过程在早期研究中得了到广泛认可[17-19],但仍无法解释市场中还存在的另一种“自上而下”的颠覆过程。为此,有学者在原有颠覆性技术概念的基础上进行了拓展[2,20]。例如,周洋等[20]认为,颠覆性的产品可以同时提升在消费市场主流和非主流属性上的性能,以较高的初始价格定位于高端市场,并在消费者需求属性增加和产品价格下降的共同作用下完成对主流市场的颠覆。两种颠覆类型均从小众市场(低端或高端)出发,其不同之处在于高端颠覆依赖于先进技术突破以实现性能的全方位提升。
不同于企业,政府部门更关注颠覆性技术在国家安全和国家竞争力上的战略意义。从影响效果的作用维度来看,上述概念将“颠覆”定义为技术在主流消费市场上的地位取代行为;国家战略意义上的颠覆性技术不是以市场地位作为直接目标,而是需要具有足够的前瞻性和先进性,以实现在特定技术轨道上的性能超越。中国工程院工程科技颠覆性技术战略研究项目组强调[21],“作为国家战略研究对象的颠覆性技术,重点是指对经济社会发展和国家战略安全具有全局性、根本性、革命性重大影响的,无法仅由市场自由决定的,需要由国家战略引领进行发展的战略新技术”。美国国防高级研究计划局(Defense Advanced Research Projects Agency,DARPA)是互联网、人工智能等颠覆性技术的早期研发部门,其创新成果在信息革命时代开辟了新的技术轨道,为美国建立了重要的先发优势。因此,DARPA将颠覆性技术称为“改变游戏规则”和“重塑未来格局”的革命性力量[22-23]。
综上所述,尽管颠覆性技术的内涵在消费市场和国家战略等层次存在不同的表达方式,但其共同的核心属性是“颠覆性”,即市场地位的替代或技术轨道的更改[10]。颠覆性技术的市场表现通常具有滞后性,且技术轨道的更改和性能超越是市场地位替代的内因[24]。因此,本文从科技情报的角度出发,重点关注技术发展轨道的变异情况及其在科技文献中的量化测度方法。
1.2 颠覆性技术识别
根据研究方法的性质,颠覆性技术识别研究可分为定性和定量两类。其中,定性方法主要包括专家意见法[11-13]、技术路线图法[14-15]等,定量方法主要包括科学计量和专利计量方法[7-10]等。
基于专家主观分析的定性研究方法是颠覆性技术识别最为传统的方法,通常以问卷或访谈的形式获取专家对候选技术的意见,经过汇总分析和多轮意见征询,最终得到一致性较高的结论。例如,White[11]邀请60名研究专家和30名业界专家对区块链技术可能的应用场景及其应用前后带来的影响程度进行评价,通过两轮问卷调查和一次访谈整合专家意见,认为区块链技术最可能在股权债权转让和流通货币场景上产生颠覆。Kostoff等[3]提出一种结合Swanson文献知识发现框架的颠覆性技术识别流程,为受访专家提供特定应用场景下的候选技术及该技术发展路线图,在细粒度的颠覆性技术识别上具有更好的表现。得益于领域专家的知识经验,此类方法在结果准确性和可读性上具有优势,至今仍被研究者和政府部门广泛采用[6,12-13]。但是,定性研究方法具有较大的主观性,颠覆性技术识别的效果取决于专家知识和特定任务的契合程度,规模较小的研究团队和企业往往无法获取足够的专家资源。此外,受专家工作条件的限制,此类方法往往存在时间周期长、应用领域范围小的局限性,需要与定量方法相结合以提高可操作性。
随着科技文献数据可获取性和计算性能的提升,基于科学计量和专利计量的颠覆性技术识别方法逐渐受到重视。学者首先对已知的颠覆性技术领域进行回溯性分析,总结其发展规律,并通过与传统技术进行对比,得到具有区分度的颠覆性技术特征。例如,Schoenmakers等[25]对比了颠覆性专利和一般专利在后向引用的数量和时间分布上的差异。李乾瑞等[9]从技术的融合性、新颖性、扩张性和影响性维度构建技术颠覆性潜力测度体系,在对智能手机和传统手机等5个领域的专利数据进行计量分析后发现,颠覆性技术在各维度上的特征均明显领先于传统技术。类似地,苏敬勤等[19]对比了智能手机和传统手机相关专利在数量和被引量上的历时分布差异,提出了“专利影响因子”指标作为区分特征。在这些量化特征体系的基础上,有学者进一步开展颠覆性技术的识别研究。王康等[26]以专利耦合对和共被引对作为基本分析单元,计算并识别其中具有低相似性、高影响力、高新颖性的技术单元作为颠覆性技术。通过对专利引用网络的主路径提取以及K-核分析,Momeni等[5]将位于网络核心位置的高影响力专利作为颠覆性技术的识别结果。上述研究极大地丰富了颠覆性技术识别的实践成果,但大部分研究仅采用专利数据进行分析,对技术的科学知识来源停留在计数层面,忽略了科学与技术间更丰富的关联特征。
1.3 “科学-技术”知识关联
技术创新所依赖的知识基础主要包括已有的科学知识与技术知识,在相关研究中,通常采用科学论文与技术专利来代表这两个方面的知识。其中,“科学-技术”知识关联是指技术专利通过引用、主题、学者-发明人等途径与科学论文产生的关联,反映了科学知识向技术领域的流动[27-30]。当前,科学研究已成为技术创新重要的基础与动力,重大技术创新往往依赖于科学与技术的紧密结合,因此,识别与理解科学与技术间的关联模式对推动科技创新具有重要意义。
相关研究首先从论文与专利之间的引用关系开展。Narin等[27]通过专利中指向科学论文的非专利引文(non-patent reference,NPR)识别科技关联,发现自20世纪80年代以来,美国的“科学-技术”知识关联不断加强,并分析了科学知识向技术领域扩散过程中存在的地理邻近性;Huang等[28]补充了科学论文对专利的引用,并设计“科学-技术”关联度与循环周期指标来分析科学与技术的互动关系。由于科学与技术间的引用关系相对稀缺,部分学者尝试结合主题、作者等信息建立“科学-技术”知识关联。刘自强等[29]结合共词、作者与引用关系构建科学与技术主题关联数据,并分析科技发展中的协同、引领等互动模式;Ba等[30]通过抽取科学与技术知识单元并构建知识网络的方式,从网络耦合的视角揭示了能源领域存在的科学引领技术发展模式。
在此基础上,后续研究进一步探索了“科学-技术”知识关联与专利其他属性之间的关系。其中,Harhoff等[31]调研企业对其所持有专利的销售价格意愿估计专利价值,运用专利计量方法发现专利的非专利引文与其估值存在正相关关系;Ahmadpoor等[32]发现,参考了科学论文的专利具有更强的影响力,被专利所参考的论文也具有更高的被引量,专利与论文的影响力均随着其与科学边界距离的缩短而提升。尽管该方向上已有一定数量的研究成果,但专利的“科学-技术”知识关联与其颠覆性的关系仍有待探索。此外,现有研究主要关注颠覆性技术的间接特征(如影响力、新颖性等),缺少对本质特征“颠覆性”的测量,可能会对识别结果产生影响。因此,在开展颠覆性技术预测研究时,有必要将预测目标准确定义为具有“高颠覆性”的技术。
1.4 专利颠覆性的测度方法
不同于采用间接特征组合(如高影响力、高新颖性)来描述颠覆性技术,“颠覆性”的直接表现是技术出现前后领域所发生的变化程度。近年来,相关研究尝试对技术的“颠覆性”进行直接量化表示[8,10,21]。黄鲁成等[10]借助自组织神经网络的物种入侵模型对技术出现前后的文本集对相似性进行计算,若新技术出现后属性集发生了较大变化,则说明该技术具有较强的颠覆性。王康等[21]从专利引用的视角出发,认为颠覆性专利的出现会使科研人员对原有技术的关注发生转移,从而使目标专利的被引频次逐渐超过被其引用的已有专利。值得一提的是,Funk等[8]于2017年提出了用于测度科技文献颠覆性指数(DI),该指数衡量目标专利公开后收到的引用中(forward citation)仅受目标专利而非其参考专利(backward citation)的影响程度。DI被提出后立即受到众多研究者的关注,其有效性已在大规模的科技文献数据上得到了验证,相关研究也针对原始指标中存在的问题提出了相应的改进指标[33-36]。上述研究共同构成本文的方法基础,为预测目标的设计提供了理论和实践指导。
此外,部分学者尝试从“离群点”的角度对技术的颠覆性进行判断。相关研究基于语义或共现关系构建专利相似性网络,通过调节建立连边的相似度阈值并应用社群发现算法,捕获游离于主要社群之外的弱关系和孤立节点,进而考察其在领域中的重要性以识别颠覆性技术[37-38]。
综上所述,准确定义颠覆性作为预测目标,融合技术特征和“科学-技术”知识关联特征,是进行颠覆性技术预测的有效途径。尽管现有研究已对技术颠覆性和相关特征的测度方法进行了探索,但仍主要关注回溯性的颠覆性技术识别,缺少系统性的预测研究。在此基础上,本文从“科学-技术”知识关联的视角利用机器学习和深度学习方法对颠覆性专利进行预测。
2
研究方法
2.1 问题定义与任务设计
专利是对技术发明的保护,在相关研究中被广泛作为可计量的技术单元[7-10]。本文将颠覆性技术的预测问题定义为对专利在未来的颠覆性的预测问题。该问题在本文中操作化为一个有监督的二分类任务:以给定专利在其公开当年的“科学-技术”知识关联和其他技术特征作为输入,以其5年后的颠覆性高低作为目标,寻找从输入空间到目标空间的一个映射,使损失函数最小。本文的研究流程如图1所示。
图1 融合“科学-技术”知识关联的高颠覆性专利预测研究流程
2.2 数据收集与处理
本文采用3个大规模的科技文献数据集来建立预测任务的样本和特征空间,即世界专利统计数据库、微软学术论文数据库以及专利的科学论文引用关系(Reliance on Science,RoS)数据库。
(1)世界专利统计数据库。该数据库由欧洲专利局(European Patent Office,EPO)维护,包含来自欧洲、美国、中国、日本、韩国等国家专利局登记的专利申请信息。本文采用2020年秋季版本的PATSTAT,共包含专利申请108754877项,时间跨度为1782—2020年。为排除数据中的噪声,在对年份缺失、未获授权和非实用专利(如外观设计)后,得到有效专利申请41963685项。由于PATSTAT是国际专利数据库,可能包含相同专利在不同国家的申请,为此本文按照专利的家族编号进行聚合,以保证内容相同的专利在样本中只出现一次,最终得到专利家族共27929543个。在前期数据探索过程中,发现早期年份的专利家族存在较为严重的信息缺失情况。为保留5年的颠覆性计算时间窗口,本文最终选择2000—2014年已获授权的8137822个专利家族作为后续计算的基础数据。
(2)微软学术论文数据库。本文获取2021年5月版本的MAG数据库,包含1800—2021年的学术论文共约2.6亿篇,其中期刊论文88642157篇。由于PATSTAT中关于非专利引文的原始数据存在格式杂乱、信息项缺失等问题,本文使用MAG数据库对非专利引文中指向科学文献的部分进行信息补充,主要包括科学文献的发表年份、被引量和学科领域信息,为“科学-技术”知识关联特征的计算提供数据基础。
(3)专利的科学论文引用关系数据库。为了建立PATSTAT中专利的科学论文引用与其在MAG中对应记录的关系,本文使用由Marx等[39]发布的专利科学论文引用关系数据。该数据库采用基于规则和机器学习的引文抽取和模糊匹配方法,从专利封面和正文中抽取引用信息并建立到MAG的匹配,共包含40393300条专利对科学论文的引用及其对应的可靠性分数。本文仅采用分数为最大值的28198207条关联关系进行特征计算,以避免错误匹配对研究结论造成影响。
2.3 高颠覆性专利家族判定
专利家族颠覆性作为预测任务的目标,对其进行科学的量化是后续实验顺利开展的必要前提。本文采用Funk等[8]提出的颠覆性指数(DI)作为专利颠覆性的量化测度指标,通过衡量目标专利家族公开后收到的引用中仅受目标专利自身而非其参考专利的影响程度,反映目标专利家族出现后对其所处技术知识空间(由专利引用网络表示)所产生的变化程度。颠覆性指标的有效性已在多个学科领域中得到验证,且在大规模数据上具有较好的规模化性能[33]。颠覆性指数的计算公式[8]为
其中,ni表示仅引用目标专利家族(focal patent,FP)且未引用其参考专利家族(focal patent's references,FPR)的专利家族数量;nj表示同时引用目标专利家族及其参考专利家族的专利家族数量;nk表示仅引用目标专利家族的参考专利家族且并未引用目标专利家族自身的专利家族数量。颠覆性指数的取值范围为[-1,1]。显然,ni与nj之间的差越大,目标专利家族的颠覆性指数越高。图2展示了单个专利家族颠覆性的计算过程示例。
图2 单个专利家族颠覆性的计算过程
Bornmann等[34-35]在对颠覆性指数的分析中强调,该指数在目标文献的被引量和参考文献数量较少时存在不稳定性,且通常需要5年时间才能获得较为稳定的颠覆性指数。Bornmann等[34-35]对nj的定义进行改进,以提升颠覆性指数的可靠性。根据相关研究的实践,本文在颠覆性指数的计算过程中进一步增加以下限定:①i、j、k三类施引专利家族的时间范围限定为目标专利家族最早公开年份后5年内;②j类施引专利家族与目标专利家族的文献耦合强度应不低于5;③目标专利家族的参考家族数量和被引量应不低于10。
在本文中,颠覆性指数的计算基于Python 3.6和Spark 3.1.2环境,计算服务器具有600 GB运行内存、64线程CPU(central processing unit)与16 TB存储空间。计算主要涉及PATSTAT的专利主表与引用关系表,通过多次表连接来获得关于目标专利家族的i、j、k三类专利家族数量并计算颠覆性指数。主表和引用关系表合计高达数亿行,为提高计算速度,本文将其以CSV(comma-separated values)文本格式存放于服务器,通过pySpark调用Spark分布式大数据计算引擎实现表连接的并行处理,颠覆性指数在PATSTAT全库上的计算需要约30分钟。
最终,以共计为530143个有效专利家族计算其5年后的颠覆性指数作为预测任务的目标,被排除的专利家族主要是其参考家族数量和被引量低于上述限定范围。在本文中,颠覆性指数处于同年前10%的专利家族被视为高颠覆性专利家族。
2.4 预测特征体系构建
为预测专利家族颠覆性,模型需要通过高颠覆性专利家族与普通专利家族在各项可测度特征上的差异来进行学习和判断。为此,本文在梳理相关文献的基础上,根据颠覆性技术的外延特点来构建特征体系。
颠覆性技术往往通过开辟新的技术发展轨道立足新兴市场,并最终以差异化和高性能优势取代在位技术[1],这就要求其技术内容有别于当前主流技术,具有相当的独特性和新颖性。相关研究把新颖性作为高颠覆性技术识别的重要维度,是其颠覆性内涵的首要延伸特点[9,37-38]。
此外,颠覆性技术的价值在其诞生时往往难以被正确评估。Bower和Christensen认为,占据市场统治地位的企业被后来竞争者颠覆的原因并非没有获悉颠覆性技术的存在,而是因为该技术并未被其主要消费者所要求,在成本利润率上无法与主流技术竞争,从而被有意忽视或否决[1]。由此可见,由于在诞生初期与主流市场需求不吻合,颠覆性技术的价值通常会被企业低估,因此,本文将商业价值维度纳入高颠覆性专利预测特征体系。
除了专利自身的属性以外,其专利权人和发明人信息也能在一定程度上反映专利价值。通过以专利续期和转让价格表示专利价值,相关研究发现,来自实力更强的大企业的专利,其价值要远高于小型企业持有的专利[40]。另外,有研究指出发展颠覆性技术往往与组织的盈利目标相悖,独立的小团队更有可能产出高颠覆性的专利[1,33]。因此,高颠覆性专利在其技术团队属性上可能与一般专利存在较大差异,能够为预测模型提供有效的决策信息。
最后,重大技术创新往往依赖于科学与技术的紧密结合。尽管相关研究已对识别科学和技术之间的关联进行了较多探索[27-30],并考察科技关联与专利的价值[31]、影响力[32]的相关性,但专利的“科学-技术”知识关联与其颠覆性的关系仍有待探索。在一些探索性的研究中,“科学-技术”知识关联特征在区分高颠覆性专利与一般专利中具有重要作用。例如,Funk等[8]发现,科研机构作为专利权人时对专利的颠覆性有显著的正向影响,但当高校与企业合作时则会降低专利的颠覆性;专利的前置技术知识对其颠覆性有负向影响,而科学知识对其颠覆性的影响是正向的。
综上所述,本文构建了包括新颖性、商业价值、技术团队、“科学-技术”知识关联4个维度的高颠覆性专利家族预测特征体系及具体指标、测量方法(表1)。其中,新颖性、商业价值和技术团队的计算限定在专利及其引用网络中,因此,三者被统称为专利的“技术特征”,与专利的“科学-技术”知识关联特征并列。
相关文献对专利新颖性的测量已有较多研究,主要是基于专利的前置技术知识量、前置技术知识影响力、前置技术知识的新旧程度进行测量[9,37-38]。由于专利申请的审查过程中要求列出与本专利申请相关的其他专利,因此,专利的前置相关专利数量(TA)越多,通常说明其新颖性越低。专利的前置技术知识是否属于主流技术,可以通过由被引量反映的影响力(TI)来测量。此外,技术循环周期(TCT)是测量前置技术知识到当前专利时间间隔指标,在成熟发展的领域,技术循环周期通常要比新兴领域更短[41]。
关于专利价值的测度指标,由于国际专利授权费用不菲,企业和机构通常只会为其重要专利在多国申请保护,因此,专利家族的规模(CS)大小直接反映了相关专利的价值及其被企业重视的程度。此外,相关研究认为专利的权利要求数量(CN)和涉及技术领域数量(TS)也与专利价值密切相关[42]。本文将上述特征纳入高颠覆性专利的预测特征体系中。关于技术团队属性的测度,本文参考相关研究成果将专利权人的数量(AN)、发明人的数量(IN)、专利权人实力(AP)和发明人实力(IP)指标加入特征体系中[38]。
在“科学-技术”知识关联测度上,相关研究主要通过科学引文数量(SA)、科学知识影响力(SI)、科学循环周期(SCT)、科学范围(SS)等指标来测量直接的“科学-技术”知识关联,但在前期数据探索中本文发现仅38%的专利家族直接引用了科学论文。尽管其他专利家族不存在直接的科学引文,但其仍可能存在间接的科学知识来源。为此,本文进一步提出两个指标来衡量这种间接的“科学-技术”知识关联:①领域科学知识密度(SD),反映了专利家族所处的技术领域(以IPC表示)整体与科学知识关联的紧密程度;②间接科学知识量(ISA),反映了专利家族通过其所直接依赖的专利技术知识建立的与科学知识的间接联系。
为保证预测任务的及时性,本文要求预测特征体系中各指标均在专利家族公开当年立即可计算。因此,专利的被引量、续期情况等需要时间积累的指标不纳入预测模型的输入特征。
2.5 模型训练与评估
按照前述指标定义,本文为530143个有效专利家族分别计算17个特征作为输入,其5年后的颠覆性指数作为预测目标,并依据7∶3划分训练集和测试集。其中,在训练集上,进一步采用十折交叉验证的方式进行模型调参和性能评估,每个候选模型在参数空间中进行50轮的参数组合随机搜索,在得到最佳模型和参数组合后,使用全部训练集数据得到最终模型;测试集数据仅用于评估最终模型性能,不参与训练和调参。对于特征中存在缺失值的情况,本文使用0填充缺失的“科学-技术”知识关联特征,使用中位数填充缺失的其他技术特征。此外,高颠覆性专利预测任务是一个在不均衡样本上的分类任务,正负样本比例为1∶9,本文进一步采用SMOTE(synthetic minority over-sampling technique)过采样和随机欠采样技术使训练集均衡,并在结果分析部分讨论其对性能目标的影响。
本文采用深度神经网络(deep neural networks,DNN)、LightGBM(light gradient boosting machine)梯度提升框架、随机森林(random forest,RF)以及逻辑回归(logistic regression,LR)作为高颠覆性专利的预测模型,基于Python的scikit-learn和PyCaret进行模型构建和调优。其中,神经网络和决策树模型均能够捕捉输入特征和目标之间复杂的非线性关系,且在大规模数据上具有较好的规模化性能。在模型性能评估中,本文综合使用精确率(precision)、召回率(recall)和F1分数作为评估指标。由于样本标签不均衡,准确率(accuracy)指标在本文中并不适用。
3
研究结果
3.1 高颠覆性专利家族基本特征
在530143个候选专利家族中,本文将颠覆性指数处于同年前10%的53089个专利家族视为具有较高颠覆性。对其所属的IPC分类号进行统计(表2),发现高颠覆性专利家族主要集中在物理(G)和电学(H)两大类。其中,以“半导体器件(H01L)”和“电数字数据处理(G06F)”最多。在未对技术领域进行限定的情况下,本文所识别到的高颠覆性专利家族所属技术领域与现有研究通过专家经验选取的领域(如半导体、通信技术、石墨烯等)具有较高重合度[4,9],这反映了本文采用的颠覆性度量指标的有效性。表3呈现了2000—2014年间具有代表性的高颠覆性专利家族,包括来自高新科技企业和传统制造企业的多项重要专利。
通过对比高颠覆性与一般的专利家族,本文进一步探究了高颠覆性专利在“科学-技术”知识关联与其他技术特征上的表现差异(表4)。
在传统的专利价值测度指标上,两类专利的首年被引量(C1)相差无几,但随时间推移,高颠覆性专利在被引量上的优势逐渐凸显(C3、C5),表明高颠覆性专利的价值并非在初期就得到认可。尽管两类专利在技术范围(TS)上具有相似的广度,高颠覆性专利的商业范围(CS)与权利要求数量(CN)均小于一般专利,印证了Bower和Christensen关于企业通常对颠覆性技术缺乏重视的观点[1]。在新颖性指标上,高颠覆性专利家族所依赖的先验技术知识量(TA)更少且影响力(TI)更低,说明高颠覆性专利的相关前置专利数量少且并非主流,具有较高的新颖性。但是,高颠覆性专利所依赖的技术知识平均年龄(TCT)却更老,其原因可能是新近的技术知识主要是延续性的技术创新,与颠覆性技术的相关性较低,后者在更为经典的知识基础上开拓了新技术路径。在技术团队指标上,尽管高颠覆性专利家族的团队规模(AN、IN)稍小,但其团队实力(AP、IP)明显比一般专利更强,这与Wu等[33]的研究结果相符。
两类专利在“科学-技术”知识关联的各项指标上也表现出了显著差异。高颠覆性专利家族在先验科学知识量(SA)及科学知识影响力(SI)指标上均较低。一方面,反映了高颠覆性专利与科学知识的关联相对较弱;另一方面,反映了其具有较高的新颖性,即前置科学知识少且并非主流。该结论在固定两组专利家族的参考文献数量与科学引文占比分析中仍然成立。两个间接的“科学-技术”知识关联测度指标(SD、ISA)也呈现一致的特征。此外,高颠覆性专利的科学循环周期(SCT)也更长,所依赖的科学知识平均而言集中于同一学科领域(SS)内。
3.2 模型预测效果评估
基于专利家族的“科学-技术”知识关联与技术特征,本文按照2.5节的方法进行模型训练和调参,各模型确定最佳参数组合后,在测试集上的性能表现如表5所示。基于决策树的LightGBM梯度提升模型综合性能表现最好(F1分数),其对高颠覆性专利家族进行分类的精确率大幅领先于其他模型,召回率仅稍低于DNN模型,这表明其能够通过当年的专利特征较为准确地提前识别在5年后表现出高颠覆性的专利家族。此外,LightGBM在大规模样本上的训练和预测速度仅次于LR模型,远高于DNN模型和RF模型,在实际应用场景中更具有可操作性。
图3呈现了LightGBM模型中的特征重要性,其计算方式为比较在该特征加入决策树前后数据集的经验熵和条件熵之差,对模型中的每一棵决策树进行计算并求平均,最终经过归一化处理使各特征重要性之和为1。数值越大,表明该特征在决策树中提供了更高的信息增益,即各类别在依据该特征进行划分后的子集中得到了更好的区分。其中,领域科学知识密度的特征重要性最高,专利权人实力和发明人实力也对预测结果具有重要影响,与3.1节的描述性分析相符。与直接“科学-技术”知识关联指标相比,间接“科学-技术”知识关联指标具有更高的特征重要性,其原因可能是前者在技术专利中的稀疏性。此外,特征重要性在前几位特征上的分布相对平衡,不存在少数特征获得极高重要性的现象,即技术的颠覆性并不能由少数特征简单确定,模型需要综合利用多项特征及其组合来对颠覆性进行判断。
图3 LightGBM模型中的特征重要性
由于高颠覆性和一般专利家族样本数量分布的严重不均衡(1∶9),所有模型均存在召回率偏低的现象。为此,本文尝试对训练集进行SMOTE过采样和随机欠采样处理,使模型在较为均衡的数据集上进行训练,从而更好地捕捉少数类的特征。模型预测效果仍在不均衡的测试集上进行评估,以反映其在真实数据分布上的性能表现。表6显示了对训练集进行SMOTE过采样后的结果,该方法采用kNN(k-nearest neighbor)算法,选择少数类样本的最近邻并进行线性插值,通过生成新的少数类样本使训练集平衡。所有模型的召回率在过采样处理后均有较大提高,但召回率的提高是以精确率的大幅下降为代价的。表7显示了对训练集进行随机欠采样处理的结果,该方法通过对多数类样本进行随机抛弃最终使类别均衡。尽管模型的召回率也得到了提高,但抛弃过多的样本会导致样本特征得不到充分学习,使不同模型之间的性能差异不明显。此外,样本的真实分布(不均衡)本身是一项重要信息,若该信息在对数据进行重采样和平衡的过程中丢失,也会导致模型在不平衡的测试集上出现误判。
综合分析不同训练策略下的模型预测性能(见表5~表7),不难发现高颠覆性专利的预测仍然是一个较为困难的任务,模型难以同时取得令人满意的精确率和召回率。相比于召回率,本文认为较高的预测精确率更有助于我国高效、准确地向重要战略研究方向进行投入。因此,本文采用表5中精确度和综合性能最高的LightGBM模型进行后续的实际预测任务。
3.3 高颠覆性专利预测
根据现有研究经验与本文在3.1节中的数据探索结果,半导体器件(H01L)和电数字数据处理(G06F)是颠覆性技术专利出现最多的领域。因此,本文选择这两个领域2019年的49312个专利家族作为新样本,使用训练完成的LightGBM模型,计算其当年的17项“科学-技术”知识关联和技术特征作为模型输入,对5年后的颠覆性情况进行预测。在49312个候选样本中,被模型预测为在5年后具有高颠覆性的专利家族共有846个,占比约为1.7%。部分具有代表性的高颠覆性专利家族如表8所示,主要包括半导体制造的微细化、性能提升等。
为了更加全面地展示高颠覆性专利家族的内容,本文使用LDA(latent Dirichlet allocation)模型对上述846个专利家族的标题和摘要进行主题建模分析,当主题数为8时,模型的一致性分数(coherence score)最好,主题之间区分度较高。通过将概率最高的主题作为专利的技术主题,本文对8个主题进行内容分析和代表性的主题词、专利呈现,结果如表9所示。其中,半导体设计、制造及其微细化技术是高颠覆性技术集中的领域,通过制程工艺提升与3D堆叠等技术提升半导体性能是相关企业和科研机构重要的研究方向。与之相配套的功耗优化、存储和处理器技术则能够在工艺相当的情况下进一步发挥半导体性能。此外,传统的硅基半导体存在物理极限,以碳化硅和氮化镓为代表的第三代半导体材料在禁带宽度上具有天然优势,具备低功耗、高效能的特点。尽管半导体材料与量子计算方面的高颠覆性专利相对较少,但其更有可能是我国突破技术封锁,实现半导体产业发展的“弯道超车”的潜在路径。
4
结 语
颠覆性技术的识别与预测研究对保障国家的科技产业安全具有重要意义。本文将专利家族作为技术单元,基于大规模的科学和技术文献对其颠覆性、技术特征及“科学-技术”知识关联特征进行测度,分析了高颠覆性专利与一般专利在知识来源、技术团队、商业价值、后续影响等方面的差异。在此基础上,本文提出融合“科学-技术”知识关联的高颠覆性专利预测方法,将其转化为使用机器学习模型建模预测的任务,根据专利的多维即时特征预测其在5年后的颠覆性。
本文的主要贡献:①在大规模的样本上揭示了高颠覆性专利的多维特征,包括前置知识少且非主流、技术团队实力强、商业价值被低估、长期影响力大等;②明确了高颠覆性专利预测的问题定义与任务设计,并用机器学习模型对任务进行学习,任务性能可通过定量指标进行评估;③将颠覆性直接作为模型的预测目标。与影响力、新颖性、增长性等间接指标和复合指标相比,基于专利引用网络结构计算的颠覆性指标能够更直接地反映任务目标,可提升颠覆性专利预测任务的有效性;④本文模型考虑了专利的“科学-技术”知识关联属性,研究结果表明,专利所在领域的科学知识密度与专利的间接科学知识量是判断专利颠覆性的重要特征。
然而,本文尚存在一些不足。首先,在预测性能方面,高颠覆性专利的预测是一个困难的任务,高颠覆性专利的稀缺性使该任务的性能还有较大的提升空间,如何在维持较高精确率的情况下提高模型召回率值得进一步研究。一个可行的方向是增加更有效的数据特征,如基于专利文本的语义特征和基于专利网络的结构特征。其次,在概念范围方面,本文仅关注了颠覆性技术在技术知识空间中的表现,没有对其在市场和社交媒体等场景下的特征进行探索。未来研究可结合经济数据和社交媒体数据对任务框架和目标定义进行拓展,基于多源数据对颠覆性技术进行识别和预测。最后,在数据源方面,数据源的质量可能会影响高颠覆性专利的识别和预测效果。本文所使用的两个大规模专利和文献数据源中,PATSTAT的数据来自欧洲、美国、日本、韩国、中国等专利局登记的专利申请信息,规范统一,数据质量较高[43];MAG数据库的主要数据源是微软Bing搜索引擎索引的网页,通过自然语言处理和机器学习技术从中抽取文献、作者、期刊等实体信息并进行消歧、去重[44]。然而,与出版商直接提供的数据相比,上述方式形成的数据质量更低,存在错漏情况。尽管本文采用RoS数据库中可靠性分数最大的引用关系来建立“科学-技术”知识关联,但仍可能存在关联错误和遗漏的问题。在条件允许的情况下,未来研究可以采用Web of Science或Scopus等权威数据库作为科学论文数据源,从而建立更为准确、全面的科技关联。
参考文献
[1] Bower J L, Christensen C M. Disruptive technologies: catching the wave[J]. Harvard Business Review, 1995, 73(1): 43-53.
[2] 苏成, 赵志耘, 赵筱媛, 等. 颠覆性技术新阐释: 概念、内涵及特征[J]. 情报学报, 2021, 40(12): 1253-1262.
[3] Kostoff R N, Boylan R, Simons G R. Disruptive technology road‐maps[J]. Technological Forecasting and Social Change, 2004, 71(1/2): 141-159.
[4] 李乾瑞, 郭俊芳, 黄颖, 等. 基于突变-融合视角的颠覆性技术主题演化研究[J]. 科学学研究, 2021, 39(12): 2129-2139.
[5] Momeni A, Rost K. Identification and monitoring of possible dis‐ruptive technologies by patent-development paths and topic mod‐eling[J]. Technological Forecasting and Social Change, 2016,104: 16-29.
[6] 赵志耘, 潘云涛, 苏成, 等. 颠覆性技术感知响应系统框架研究[J]. 情报学报, 2021, 40(12): 1245-1252.
[7] Capponi G, Martinelli A, Nuvolari A. Breakthrough innovations and where to find them[J]. Research Policy, 2022, 51(1): 104376.
[8] Funk R J, Owen-Smith J. A dynamic network measure of techno‐logical change[J]. Management Science, 2017, 63(3): 791-817.
[9] 李乾瑞, 郭俊芳, 黄颖, 等. 基于专利计量的颠覆性技术识别方法研究[J]. 科学学研究, 2021, 39(7): 1166-1175.
[10] 黄鲁成, 成雨, 吴菲菲, 等 . 关于颠覆性技术识别框架的探索[J]. 科学学研究, 2015, 33(5): 654-664.
[11] White G R T. Future applications of blockchain in business and management: a Delphi study[J]. Strategic Change, 2017, 26(5):439-451.
[12] 李晓龙, 鲁平, 李存斌. 基于Delphi和DEMATEL法影响国网的颠覆性创新技术影响因素综合排序分析[J]. 科技管理研究,2017, 37(6): 127-133.
[13] 刘志辉, 张均胜, 林毅, 等. 基于隐性知识的潜在颠覆性技术评估方法研究[J]. 情报学报, 2021, 40(12): 1271-1278.
[14] Phaal R, Farrukh C J P, Probert D R. Technology roadmapping—a planning framework for evolution and revolution[J]. Technolog‐ical Forecasting and Social Change, 2004, 71(1/2): 5-26.
[15] Vojak B A, Chambers F A. Roadmapping disruptive technical threats and opportunities in complex, technology-based subsys‐tems: the SAILS methodology[J]. Technological Forecasting and Social Change, 2004, 71(1/2): 121-139.
[16] 张金柱, 王秋月, 仇蒙蒙. 颠覆性技术识别研究进展综述[J]. 数据分析与知识发现, 2022, 6(7): 12-31.
[17] Rafii F, Kampas P J. How to identify your enemies before they destroy you[J]. Harvard Business Review, 2002, 80(11): 115-123, 134.
[18] Nagy D, Schuessler J, Dubinsky A. Defining and identifying dis‐ruptive innovations[J]. Industrial Marketing Management, 2016,57: 119-126.
[19] 苏敬勤, 刘建华, 王智琦, 等. 颠覆性技术的演化轨迹及早期识别—— 以 智 能 手 机 等 技 术 为 例[J]. 科 研 管 理, 2016, 37(3):13-20.
[20] 周洋, 张庆普. 高端颠覆性创新的技术演进轨迹和市场扩散路径[J]. 研究与发展管理, 2017, 29(6): 99-108.
[21] 王康, 陈悦, 王玉奇, 等. 基于专利引用变化的颠覆性技术识别研究[J]. 情报杂志, 2022, 41(1): 74-80, 169.
[22] 程如烟, 孙浩林. 主要经济体支持颠覆性技术创新的政策措施研究[J]. 情报学报, 2021, 40(12): 1263-1270.
[23] 曹晓阳, 魏永静, 李莉, 等. DARPA的颠覆性技术创新及其启示[J]. 中国工程科学, 2018, 20(6): 122-128.
[24] 石慧, 潘云涛, 苏成 . 颠覆性技术及其识别预测方法研究综述[J]. 情报工程, 2019, 5(3): 33-48.
[25] Schoenmakers W, Duysters G. The technological origins of radi‐cal inventions[J]. Research Policy, 2010, 39(8): 1051-1059.
[26] 王康, 陈悦. 技术融合视角下基于专利的颠覆性技术识别研究[J]. 情报杂志, 2022, 41(4): 29-36, 134.
[27] Narin F, Hamilton K S, Olivastro D. The increasing linkage be‐tween U. S. technology and public science[J]. Research Policy,1997, 26(3): 317-330.
[28] Huang M H, Yang H W, Chen D Z. Increasing science and tech‐nology linkage in fuel cells: a cross citation analysis of papers and patents[J]. Journal of Informetrics, 2015, 9(2): 237-249.
[29] 刘自强, 许海云, 罗瑞, 等. 基于主题关联分析的科技互动模式识别方法研究[J]. 情报学报, 2019, 38(10): 997-1011.
[30] Ba Z C, Liang Z T. A novel approach to measuring science-tech‐nology linkage: from the perspective of knowledge network cou‐ pling[J]. Journal of Informetrics, 2021, 15(3): 101167.
[31] Harhoff D, Scherer F M, Vopel K. Citations, family size, opposi‐tion and the value of patent rights[J]. Research Policy, 2003, 32(8): 1343-1363.
[32] Ahmadpoor M, Jones B F. The dual frontier: patented inventions and prior scientific advance[J]. Science, 2017, 357(6351):583-587.
[33] Wu L F, Wang D S, Evans J A. Large teams develop and small teams disrupt science and technology[J]. Nature, 2019, 566(7744): 378-382.
[34] Bornmann L, Tekles A. Convergent validity of several indicators measuring disruptiveness with milestone assignments to physics papers by experts[J]. Journal of Informetrics, 2021, 15(3): 101159.
[35] Bornmann L, Devarakonda S, Tekles A, et al. Are disruption in‐dex indicators convergently valid? The comparison of several in‐dicator variants with assessments by peers[J]. Quantitative Sci‐ence Studies, 2020, 1(3): 1242-1259.
[36] 刘小慧, 廖宇, 朱曼曼. 颠覆性指数用于科研评价初探[J]. 情报理论与实践, 2021, 44(12): 34-40.
[37] 罗素平, 寇翠翠, 金金, 等 . 基于离群专利的颠覆性技术预测—— 以 中 药 专 利 为 例 [J]. 情 报 理 论 与 实 践 , 2019, 42(7):165-170.
[38] 孔德婧, 董放, 陈子婧, 等 . 离群专利视角下的新兴技术预测——基于 BERT模型和深度神经网络[J]. 图书情报工作, 2021,65(17): 131-141.
[39] Marx M, Fuegi A. Reliance on science: worldwide front-page pat‐ent citations to scientific articles[J]. Strategic Management Jour‐nal, 2020, 41(9): 1572-1594.
[40] Bessen J. The value of U.S. patents by owner and patent charac‐teristics[J]. Research Policy, 2008, 37(5): 932-945.
[41] Kayal A A, Waters R C. An empirical evaluation of the technolo‐gy cycle time indicator as a measure of the pace of technological progress in superconductor technology[J]. IEEE Transactions on Engineering Management, 1999, 46(2): 127-131.
[42] Marco A C, Sarnoff J D, DeGrazia C A W. Patent claims and pat‐ent scope[J]. Research Policy, 2019, 48(9): 103790.
[43] 张静, 杨冠灿, 刘会景. 全球专利统计数据库(PATSTAT)研究述评[J]. 数字图书馆论坛, 2015(12): 62-68.
[44] Sinha A, Shen Z, Song Y, et al. An overview of Microsoft aca‐demic service (mas) and applications[C]// Proceedings of the 24th International Conference on World Wide Web. 2015: 243-246. New York: ACM Press, 2015: 243-246.
制版编辑 | 李 静
审核 | 王海燕
国家自然科学基金管理学部A类期刊
全国中文核心期刊
CSSCI来源期刊
《中国人民大学复印报刊资料》重要转载来源期刊
CSTPCD(中国科技论文与引文数据库)收录期刊
NSSD (国家哲学社会科学学术期刊数据库)
长按扫描二维码 | 关注我们
情报学报官网:qbxb.istic.ac.cn
邮箱:qbxb@istic.ac.cn
电话:010-68598273
欢迎投稿!
【免责声明】本公众号主要发布《情报学报》期刊的录用文章,或转载其他媒体与网站的图文资讯。文章仅代表作者本人观点,本公众号对文中陈述、观点判断保持中立。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。抄袭本文至其他渠道者引发的一切纠纷与本公众号平台无关。